查看原文
其他

湖仓一体架构构建与平台应用实践(PPT)

点击上方蓝字设为星标
每天发文07:37一起成长!


数据仓库适合存储结构化的、信息密度高的、经过处理后的数据。例如我们通过大数据分析得到的关联信息、画像信息等,都可以放在数据仓库中。

“仓库”一词也将它的特点表现得清清楚楚。仓库,东西要放在规整的货架上,甚至还会给货架编号。这里的数据很规范,用起来没那么灵活。


数据湖适合存储非结构化的、信息密度低的、未经清洗的数据。例如生产中我们获取到的日志信息、长文本信息等都可以直接放到数据湖中。


曾经有一段时间,大家对于大数据的存储形式分裂为了两派。不断询问是选择数据湖,还是选择数据仓库?


选择数据湖,才能拥有数据的多样与灵活,有利于将不同的数据组合在一起,发现新的规律。选择数据仓库,才能拥有数据的规范与清晰,有利于数据的便捷使用,也利于数据的长时间存储。


湖仓一体,即打通数据仓库和数据湖两套体系,让数据和计算在湖和仓之间自由流动,从而构建一个完整的有机的大数据技术生态体系。这就像是在你的面前放了一个摆满了文档的书桌(数据湖),也放了一个小书架(数据仓库)。于是两者的数据以随意获取,在灵活与规范之间取得了平衡。



下面这份PPT材料来自DAMA中国,专题分享活动《湖仓一体,构建企业数字化新基座》,作者数据科学家毛亮坚老师,主要介绍了大数据平台架构演进、详细阐述湖仓一体架构构建与探索思路、湖仓一体化平台应用实践案例、最后提出了湖仓一体化平台未来发展趋势,推荐给大家阅读。


    据统计,99%的数据大咖都关注了这个公众号

    👇

往期推荐

数据湖元数据治理实践(PPT)

腾讯大数据安全体系(PPT)

主数据管理方法论与实践(PPT)

数据治理体系架构方案(PPT)

数据中台建设方案及实施路径(PPT)

阿里大数据OneData体系架构(PPT)

数据仓库实施步骤与建模体系(PPT)


继续滑动看下一个
BAT大数据架构
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存